[Day 12] loos 曲線

2024 iThome 鐵人賽

DAY 12

自我挑戰組

菜鳥AI工程師給碩班學弟妹的挑戰系列第 12 篇

16th鐵人賽

jeremylee

2024-08-16 09:41:38

935 瀏覽

分享至

今天我們來看一下loss曲線怎樣才是符合預期的結果，以及我們第十天的loss曲線如何

1. 第十天的loss曲線

基本上我們預期loss曲線最後能穩定收斂到某一個值，一般在前半段loss曲線會快速下降，後面會稍微震盪，但最後會穩定在某個值，依照這個標準來看我們第十天的training loss是非常不錯的，那麼依照loss曲線分成幾種情況:

overfitting: 在中文翻過擬合，主要就是訓練的時候很棒，但測試集不好
舉個秒懂的例子: 大學物理老師上課教的，你很努力的去聽得懂，然後你很認真準備考試，習題也練習得差不多，但考試時奇怪怎麼都不會寫，大致上就是這種感覺。
underfitting: 在中文翻欠擬合，主要就是沒學完全學會，學了一半的感覺

以上狀況是需要train跟val test一起來看，會發現第十天的val loss曲線大概在9k過後就往上了，代表在9k之後就有點overfitting了，所以通常會取9k前的ckpt來用。

我們來看看如果是overfitting的圖會長怎樣吧，這裡拿我最近training的模型來說，可以發現在將近16k模型就overfitting了，這時我去看我的資料集，發現某一類的資料特別少，所以導致那一類在辨識時效果不好，所以每類資料平衡也是很重要的!!

通常我自己遇到的都是overfitting居多，但要解決overfitting又不是那麼容易，主要是有很多原因可能會導致overfitting，以下是我遇到過的三種形況:

model問題 → 嘗試其他model → 或使用人家已經用大量資料訓練的pre-trained model來fine-tune
資料太少 → 增加資料
某類資料太少 → 預測時資料太少的效果不好

嘗試其他model這就屬於研究的議題，怎麼樣的model適合做這項任務，通常都是看論文研究或看github上主流是用哪一套。
如果是資料太少就只能收集資料，比較好取得的就音檔, 文字，這些可以透過爬蟲取得，但沒有答案。
另外有些資料不是那麼好取得，比如說乳房腫瘤的標記資料，這些需要高專業度的放射科醫師才能標記，我們一般人根本沒辦法，所以通常會採data augmentation，或是模擬或合成的資料的方式來做。

以下舉幾個我看過增加資料的例子:

ASR 方面的 whisper large v3:
在huggingface上就這樣子告訴你，他使用了4 million hours of pseudo-labeled，主要就是用上一版的model跑語音辨識，得到的結果拿來訓練v3的模型，不過相對的他也需要足夠多labeled的資料。
LLM 方面的Nemotron-4 340B(https://arxiv.org/pdf/2406.11704v1 ):
最一開始摘要就講說有超過98%的資料是用合成的，不過蠻有趣的是，他是先使用一定的數量的資料，先訓練出一個Base的版本，然後透過這個Base版本生成大量的合成資料，再用這些資料進一步地去訓練。